Данная дисциплина предназначена для изучения языка программирования R и его использования для анализа данных. Дисциплина охватывает все стадии анализа данных, от сбора и обработки данных до обучения модели на этих данных. Уделено большое внимание визуализации данных, а также работе с данными в интернете.
R — язык программирования для статистической обработки данных и работы с графикой, но в тоже время это свободная программная среда с открытым исходным кодом. R применяется везде, где нужна работа с данными. Это не только статистика в узком смысле слова, но и «первичный» анализ (графики, таблицы), и продвинутое математическое моделирование.
IDE(Integrated Development Environment) - интегрированная среда разработки. Можно сказать, что это красивая и удобная обложка для R.Такими инстсрументами являются RStudio, JGR, RKWard, SciViews-R. Мы будем использовать RStudio.Для тех, кто продвинется в изучении R и Python,можно работать с обоими языками в Jupyter notebook.
Интерфейс RStuidio состоит из четырёх основных окон:
Давайте теперь попробуем начать наше взаимодействие с R. Начнем с простых арифметических операций. Будем писать и запускать код в консоли. О том, что консоль готова запускать какой-либо код, говорит нам знак больше(>). Напишем 2 + 2 и нажмем Enter.
В выводе получаем закономерные 4! Попробуйте сами выполнить остальные арифметические операции.
2+2 # Сложение.
## [1] 4
10-5 # Вычитание.
## [1] 5
10*99 # Умножение.
## [1] 990
225/15 # Деление, результат - целочисленный.
## [1] 15
10/4 # Деление, результат - действительное число.
## [1] 2.5
11%/%3 # Целая часть от деления.
## [1] 3
11%%3 # Остаток от деления.
## [1] 2
5^2 # Возведение в степень (1 вариант).
## [1] 25
5**2 # Возведение в степень (2 вариант).
## [1] 25В R также есть встроенное значение числа Пи.
Давайте теперь попробуем воспользоваться знакомыми нам функциями. Например найдем косинус числа Пи. Для этого напишем в консоли cos(pi). Заметим, что аргумент нашей функции мы записываем в круглых скобках. Используем эту функцию и другие.
cos(pi) # Косинус.
## [1] -1
sin(pi) # Синус.
## [1] 1.224647e-16
exp(1) # Экспонента.
## [1] 2.718282
tan(0) # Тангентс.
## [1] 0
abs(-5) # Модуль.
## [1] 5
sqrt(144) #Корень.
## [1] 12
factorial(10) # Факториал.
## [1] 3628800
round(3.4865, 2) # Округление числа до 2 знака после запятой.
## [1] 3.49Отметим некоторые моменты:
Все эти функции являляются встроенными в R. На вход функции получают один или несколько аргументов. Как и в математике, чтобы получить значение функции \(y = f(x)\) нужно подставить аргумент \(x\).
У функции round имеется два аргумента: число, которое нужно округлить, и до скольких знаков после запятой это нужно сделать. Когда у нас имеется 2 или более аргумента, мы перечисляем их через запятую. К функциям мы еще вернемся позднее.
Есть огромное количество функций(как встроенных, так и написанных нами). Их названия могут быть большими. Чтобы не писать их полностью, можно написать начало функции после чего нажать кнопку Tab. RStudio выведет список функций с таким же началом, после чего вы с помощью стрелочек сможете выбрать нужную вам функцию.
Как говорилось ранее, о готовности консоли запустить код говорит знак больше(>). Но иногда там появляется плюсик(+) из-за которого все перестает работать. Этот плюсик появляется после того, как вы не дописали какой-то код. Давайте напишем в консоли 10 - 5 -. В данном случае мы видимо забыли дописать какое-то число. У нас появится плюсик(+). В данном случае мы можем дописать код или нажать Esc и написать код заново. Чтобы не писать код заново, можно с помощью стрелочки вверх вернуться к написанному ранее коду.
Обычно мы пишем достаточно большой код на много строк. Писать по одной строке в консоле очень неудобно по всем причинам. Хотелось бы написать код, а потом уже его запустить и при надобности редактировать. Для этого и нужен скрипт. Давайте создадим наш первый скрипт!
Код пишется здесь построчно. После того как вы написали нужный вам код у вас есть несколько вариантов как передать его в консоль и запустить:
Полезно комментировать код, который вы пишите, чтобы другие люди или вы позднее смогли понять смысл кода. Для комментирования импользуется решетка(#). Все, что идет после нее не является кодом, который R запускает. Это удобно, когда нужно прокомментировать что-то или убрать часть кода, не удаляя его. Если вам нужно закомментировать/расскоментировать несколько строк, то можно использовать комбинация клавиш Ctrl + Shift + C(Сmd + Shift + C на маке).
Также можно сделать заголовок, чтобы отделить части кода друг от друга. Это можно сделать с помощью комбинации клавиш Ctrl + Shift + R(Сmd + Shift + R на маке).